连载(10):统计图形艺术——QQ图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
QQ图 Quantile-quantile Plot
QQ图和PP图(Percent Plot)由印度统计学家Ramanathan Gnanadesikan和加拿大统计学家Martin Bradbury Wilk于1968年发表的论文中首次使用[1]。
QQ图,将实际数据中每个值转化为分位数(quantle),假设数据服从某一参数分布(如正态分布)而将分位数化为该期望分布上的函数值(如Z值),绘制实际数值(y轴)和理论分布函数值(x轴)的散点图,若散点位于对角线上,则提示“数据服从该参数分布”之假设成立。QQ图中,直线斜率为标准差,截距为均值。下图中左图为检查谈话者音波能量数据是否服从正态分布的QQ图,显然不服从正态分布。
类似,PP图,通过绘制实际数据的累积比与期望分布的理论累积概率之间散点图,若散点位于对角线上,则提示检验实际数据服从(或近似服从)目标分布;或绘制同理,亦可绘制两批数据的累积比的散点图,以观察两批数据是否服从同分布。右图为谈话者1和谈话者8对同个词语的音波能量累积比例的PP图,同样,这两位谈话者音波能量的分布明显不同(图 10.1)。
图10.1:历史上首个QQ图和PP图
检验数据是否服从某种特定的参数分布。
比较两类数据的分布是否相同。
例1: 本例选取500名江苏省高中男生的体检BMI(body mass index)数据,将其标化后用QQ图来检验其是否服从正态分布(图 10.2)。
可观察到图A实际数据点并不呈直线分布,这说明标化后的BMI数据和正态分布是有所差异的,A图左边有一部分点偏离在直线上方,说明实际分位数大于理论分位数,从密度曲线的角度来说,实际数据的分布更偏向右,理论分布曲线左边向左伸得更远。
图10.2:江苏省500名高中男生BMI QQ图
例2:本例将比较高中男生女生的BMI分布是否相同(图 10.3)。
QQ图还可用于比较两种数据的分布是否相同,从QQ图和密度分布图中均可能看出高中男生女生的BMI分不同。
图10.3:高中男生女生BMI指数QQ图
GWAS研究中,常对全基因组上百万遗传变异的关联性检验结果,绘制QQ图,以观察是否存在人群分层现象。引入λ参数作为膨胀系数,为所有遗传变异关联性分析的卡方统计量(和P值有对应关系)的中位数和理论卡方分布的中位数之比。若λ显著大于1,说明可能存在人群分层或其他混杂因素,导致P值膨胀,进而导致假阳性率过高。
例3:GWAS研究中QQ图的应用。
以一项中国人群胰腺癌的GWAS研究为例[2],该研究纳入了981名基于981名胰腺癌病例与1991名对照。666141个SNP位点的关联性分析的P值用于绘制QQ图(λ=1.059),提示无人群分层,右上角“上翘”的点为潜在关联性位点(图 10.4)。
图10.4:中国人群胰腺癌GWAS研究QQ图
例:续上例。
从图中可见,散点明显偏离中线,提示高中男生的BMI不服从正态分布(图 10.5)。
注:图形只是初步展示数据特征,还需统计学检验才可确定数据特征。
图10.5:江苏省高中男生BMI的PP图
对称图用于检验某一数据是否关于中位数对称,即检验该数据是否服从对称分布,若数据散点偏离y=x直线,则可认为数据分布并不对称。
例:本例对500名高中男生的BMI指数进行检验,如A图所示,大部分数据位于斜线上方,说明数据并不服从对称分布,B图直方图也可反映该数据为右偏态分布(图 10.6)。
图10.6:高中生BMI指数对称性诊断图
John Tukey于1977年的著作《Exploratory Data Analysis》[3]提出了幂阶(ladder of power)概念,通过对变量进行降幂、升幂、对数变化,通过绘制散点图以观察各种变换对数据间线性关系的影响(图 10.7),其目的是将非线性关系转变为线性关系。
图10.7:Tukey ladder of powers
gladder展示的是通过幂阶将变量转化为正态分布数据的直方图。qqladder展示的是通过幂阶将变量转化为正态分布数据的QQ图。
网络如图所示(图 10.8),通过反函数(inverse)转化后的数据近似服从正态分布,效果更佳。
图10.8:高中生BMI分布正态化的幂阶搜索
QQ图和PP图的用途完全相同,只是展示方式存在差异。
参考文献:
Wilk MB, Gnanadesikan R. Probability plotting methods for the analysis for the analysis of data. Biometrika. 1968;55(1):1–7.
Wu C, Miao X, Huang L, Che X, Jiang G, Yu D, et al. Genome-wide association study identifies five loci associated with susceptibility to pancreatic cancer in chinese populations. Nature genetics. 2012;44(1):62–6.
Tukey JW. Exploratory data analysis. Vol. 2. Reading, MA; 1977.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技